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基于 语义 网 络 的 研究 兴趣 相似 性 度量 方法 
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摘要 : 【 目的 ] 为 准确 识别 研究 内 容 相 似 但 使 用 不 同 关 键 词 的 作者 关系 , 解决 传统 共 现 分 析 方 法 缺乏 语义 关联 的 
问题 , 提出 一 种 基于 关键 词语 义 网 络 构建 的 作者 研究 兴趣 相似 性 度量 方法 。[【 方法 ] 通 过 引入 word2vec 模型 对 作 
者 关键 词 进行 词 向 量 表 示 , 将 关键 词 表示 成 语义 级 别 的 低 维 实 值 分 布 ; 计算 关键 词 之 间 的 语义 相关 度 并 构造 关 


键 词 语义 网 络 , 采用 JS 距离 对 构建 的 作者 研究 兴趣 矩阵 进行 相似 性 度量 。[ 结果 ] 该 方法 能 计算 出 共 现 及 非 共 


现 词 对 的 相关 性 ， 有 效 地 挖掘 出 作者 之 间 的 潜在 合作 关系 ,【 局 限 ] 训 练 语 料 的 数量 和 准确 性 有 待 进一步 提高 ， 提 
出 的 度量 方法 仅 考虑 两 个 作者 之 间 的 潜在 合作 关系 。[ 结论 ] 研究 结果 对 改进 基于 传统 的 共 现 分 析 方 法 度量 作者 


合作 关系 具有 重要 的 参考 价值 。 
关键 词 : 作者 关键 词 网 络 ”神经 网 络 语言 模型 
分 类 号 : G250 


语义 相似 度 ” 研 究 兴趣 矩阵 
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1 3 引 


有 效 识别 作者 研究 兴趣 的 相似 度 ,是 挖掘 科研 人 
员 潜 在 合作 关系 以 及 探测 学 科 知 识 结构 的 重要 基础 工 
作 。 针 对 作者 研究 兴趣 的 相似 度 计算 已 在 学 科 知 识 结 
构 探测 趾 、 科 研 社区 发 现 趾 、 作 者 合 著 结 构 剖 析 趾 、 学 
科 间 关系 探讨 外 等 领域 取得 广泛 的 应 用 。 在 当前 科研 
工作 的 大 团体 中 ， 如 何 准确 地 识别 作者 研究 兴趣 之 间 
的 相似 性 ， 有 效 挖掘 潜在 的 竞争 对 手 与 合作 伙伴 ， 
直 以 来 也 是 图 书 情报 领域 研究 的 重要 课题 。 

针对 作者 研究 兴趣 相似 度 计算 问题 ,相关 学 者 
已 经 开展 了 大 量 的 研究 工作 。 目 前 , 采用 的 主要 方法 
有 以 文献 为 计量 单位 的 作者 共 被 引 分 析 趾 、 作 者 文献 
耦合 分 析 双 以 及 以 关键 词 为 计量 单位 的 关键 词 分 析 
方法 Wl 等。 由 于 关键 词 是 文献 核心 内 容 的 浓缩 和 提炼 ， 
高 度 概 括 了 文献 的 基本 内 容 ， 较 作者 合 著 和 引文 分 
析 方 法 ,基于 关键 词 分 析 更 能 直观 地 反映 出 文献 内 容 
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和 作者 的 研究 兴趣 ， 因 而 较 多 的 研究 利用 作者 发 表 
的 文献 资源 中 的 关键 词 集合 来 揭示 作者 的 研究 兴趣 。 
然而 ， 基 于 这 种 词 频 或 共 现 词 频 的 分 析 方法 ,假定 作 
者 所 使 用 的 关键 词 之 间 相 互 独立 ,未 考虑 关键 词 之 
间 的 语义 关联 信息 ， 因 而 不 能 很 好 地 刻画 出 词 之 间 
的 相似 程度 ,无 法 有 效 地 挖掘 研究 内 容 相 似 但 使 用 
不 同 关键 词 的 作者 关系 中。 男 外 ,该 方法 只 是 直观 地 
假设 共 现 就 必然 相关 ， 且 在 共 现 词 数 相同 的 情况 下 
关键 词 之 间 的 相关 强度 完全 相同 。 从 单 篇 文献 以 及 领 
域 范 围 内 整个 文献 集合 的 研究 角度 而 言 ， 共 现 的 关 
键 词 对 之 间 存 在 直接 的 共 现 关系 或 间接 的 语义 关联 ， 
且 关 联 强度 不 同 ， 而 不 共 现 的 关键 词 对 之 间 也 存在 
一 定 的 关联 性 。 

因此 , 为 有 效 挖掘 作者 所 使 用 的 关键 词 之 间 的 语 
义 关系 , 本文 在 传统 作者 关键 词 分 析 方法 的 基础 上 ， 
提出 一 种 基于 关键 词语 义 网 络 构建 的 作者 兴趣 相似 性 
度量 方法 。 首 先 , 通过 浅 层 神经 网 络 语言 模型 word2vec 
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对 作者 文献 进行 建 模 学 习 , 将 作者 的 关键 词 表 示 成 语 
义 级 别 的 单词 特征 向 量 , 通过 Pearson 相关 系数 计算 
关键 词 之 间 的 相关 程度 ; 其 次 , 构造 关键 词语 义 矩 阵 
作为 作者 的 研究 兴趣 和 矩阵， 通过 Jensen-Shannon 距离 
计算 作者 之 间 的 相似 性 ; 最 后 ,选取 国内 电子 政务 研 
究 领 域 的 核心 著者 作为 对 象 进行 实验 ,验证 该 方法 的 
有 效 性 。 


2 相关 工作 


基于 以 文献 为 计量 单位 的 作者 共 被 引 分 析 、 作 者 
文献 耦合 分 析 等 方法 ， 主 要 是 通过 计算 作者 之 间 的 共 
被 引 强度 、 耦 合 强度 来 度量 作者 研究 兴趣 的 相似 程度 。 
如 Jan Van Eck 等 四 分 别 采 用 Pearson 相关 系数 和 Salton 
余弦 相似 度 计算 方法 从 概率 分 布 角度 探 讨 作者 共 被 引 
相似 度 的 度量 。 即 均 平 等 5C9 从 多 方面 对 获取 的 引文 网 
络 进行 重 构 , 并 引入 时 间 维 度 来 探索 引文 网 络 中 的 知 
识 扩散 和 演进 过 程 。Zhao 等 号] 首次 提出 作者 文献 耦合 
分 析 方 法 , 并 将 该 方法 应 用 于 世界 范围 内 情报 学 领域 
的 演化 研究 中 。 随 后 ， 陈 远 等 所 在 国内 首次 对 该 方法 
进行 实证 应 用 ,用 于 探索 国内 情报 学 领域 的 前 沿 性 
学 科 结 构 以 及 研究 热点 状况 。 王 知 津 等 请 将 1990 年 - 
2009 年 我 国情 报 学 研究 进行 不 同时 段 的 划分 , 采用 
该 方法 识别 情报 学 总 体 研 究 领域 和 各 时 段 的 研究 领 
域 。 上述 方 法 主要 通过 借助 第 三 方 文献 而 建立 一 种 隐 
性 的 、 间 接 的 学 术 关系 , 在 揭示 作者 研究 内 容 上 不 如 
直接 以 关键 词 为 计量 单位 的 作者 关键 词 共 现 分 析 方 
法 中 4。Morris 等 5 也 认为 通过 关键 词 的 共 现 关联 在 
一 起 的 文献 更 有 可 能 表达 同一 个 研究 主题 。 另外， 基 
于 作者 文献 耦合 分 析 方 法 只 考虑 两 个 学 者 之 间 共 同 
引用 参考 文献 的 数量 ， 而 未 考虑 参考 文献 之 间 内 容 
上 的 关联 性 。 

基于 文献 的 关键 词 共 现 分 析 方 法 , 主要 通过 统计 
作者 所 使 用 的 关键 词 的 共 现 频次 来 度量 作者 研究 兴趣 
的 相似 度 。 如 Onyancha 等 (3 引入 社会 网 络 分 析 中 的 
复杂 网 络 相关 理论 ,利用 关键 词 的 共 词 矩阵 分 析 整 体 
网 络 特性 ， 并 对 网 络 中 节点 性 质 和 存在 的 派系 进行 研 
究 , 进一步 分 析 研 究 领域 的 知识 或 主题 结构 。 吨 均 平 
等 ("采用 作者 关键 词 共 现 分 析 方 法 挖 气 我 国 计 量 学 领 
域 的 隐 性 作者 合作 关系 ， 并 采用 Ucinet 对 我 国 计 量 
学 领域 的 综合 性 作者 合作 关系 进行 可 视 化 分 析 。 丁 敬 
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达 吕 将 作者 关键 词 耦合 与 作者 文献 耦合 分 析 方 法 相 
结合 , 用 于 揭示 创新 知识 社区 内 部 的 科学 交流 特征 
与 规律 研究 , 拓展 这 两 种 计量 方法 的 应 用 视角 与 应 
用 范围 。 陈 卫 静 等 六 提出 在 作者 关键 词 耦合 分 析 方 法 
的 基础 上 , 综合 考虑 关键 词 的 频次 、 作 者 发 文 量 及 关 
键 词 分 布 等 因素 对 作者 相似 度 的 影响 , 采用 TF-IDF 
的 关键 词 加 权 方 式 ， 对 关键 词 耦合 强度 的 计算 方法 
进行 改进 。 然 而 ， 上述 研究 大 多 是 利用 作者 文献 中 关 
键 词 的 共 现 强度 来 分 析 作 者 之 间 的 关系 , 采用 类 似 
One-Hot Representation 的 建 模 方 式 构建 共 现 矩阵 ， 
如 果 共 现 则 该 关键 词 对 在 共 现 矩阵 中 取 值 为 1， 否 则 
为 0, 且 直 观 地 假设 共 现 就 必然 存在 相关 , 缺乏 对 关 
键 词 对 之 间 语 义 关系 和 关系 强度 的 揭示 。 为 此 ,本文 
采用 word2vec 能 入 模型 对 作者 的 文献 集合 进行 语义 
建 模 学 习 ， 从 语义 和 语法 的 角度 计算 关键 词 之 间 的 
相关 强度 ， 进 而 计 算出 作者 之 间 研 究 兴趣 的 相似 性 。 
由 于 不 共 现 的 关键 词 对 之 间 也 存在 一 定 的 关联 性 ， 
基于 该 方法 也 可 有 效 地 计算 出 共 现 及 非 共 现 关 键 词 
对 之 间 的 相关 性 。 


3 ”基于 语义 网 络 的 研究 兴趣 相似 度量 方法 


3.1 基于 word2vec 模型 的 语义 建 模 

word2vec 模型 是 由 Mikolov 等 \ 提出 用 于 将 单词 
转化 成 回 量 的 深度 学 习 工 具 , 与 主题 模型 如 PLSA、 
LDA 等 不 同 的 是 , 该 词 租 入 模型 主要 利用 词汇 与 上 下 
文 信息 的 共 现 ,基于 窗口 长 度 考 虑 语法 和 语义 更 底层 
的 信息 进行 建 模 , 能 更 有 效 地 刻画 出 词 与 词 之 间 的 语 
义 关 系 。word2vec 模型 为 获取 词 的 癌 量 表示 提供 两 种 
有 效 的 建 模 方法 : 基于 连续 词 袋 (Continuous Bag-Of- 
Words，CBOW) 和 Skip-gram 架构 。 本 文 主 要 基于 
CBOW 模型 ， 并 采用 Hierarchical Softmax 方法 进行 优 
化 训练 。 

CBOW 模型 主要 采用 的 神经 网 络 框架 是 在 
Hierarchical NNLM 的 基础 上 去 掉 最 耗 时 的 非 线 性 隐 
藏 层 , 并 让 输入 层 的 所 有 单词 共享 映射 层 踢 。 该 模型 
通过 利用 单词 的 上 下 文 信息 来 生成 单词 的 词 向 量 , 并 
对 生成 的 上 下 文 词 向 量 进行 求 和 得 到 训练 的 目标 向 
量 , 结合 词 频 计 算 权 值 构建 Huffman 树 , 利用 异步 随 
机 梯度 下 降 的 方法 对 目标 函数 进行 训练 CBOW 模型 
的 框架 如 图 1 所 示 。 


输入 层 映射 层 输出 层 
W(t-2) 
W(t1) SUM W(D) 
W(t+1) 
W (1+2) 


图 1 CBOW 模型 框架 人 2 


基于 神经 网 络 的 语言 模型 的 目标 函数 为 对 数 似 然 
函数 5= 》 logp(wl Context(w)) ,其 中 关键 是 对 条 件 


weC 


概率 函数 p(w|Context(w)) 的 构造 。 基 于 Hierarchical 
Softmax 优化 的 CBOW 模型 主要 利用 词 向 量 X(w) 和 
Huffman 树 来 定义 条 件 概 率 函 数 p(w|Context(w)), 定 
义 如 下 2 


证 

I= 

p(v™ |context) = [pc |YT ,V3 ,Vi bcontext) i 
j=1 


(—p(vY | Vv, vy ,vy 1, context)) (1) 


其 中 ，v™*=(vY ,Vv》,…,VvY) e(0, 1) 表 示 当 前 词 w 
的 哈 夫 受 编码 , (wan mw， web wa …，wtn) 表 示 词 w 
的 上 下 文 , 简 记 为 context。 通过 CBOW 模型 得 到 关于 
词 指定 长 度 的 向 量 , 使 用 这 组 向 量 采用 余弦 值 或 欧式 
距离 来 计算 词语 之 间 的 语义 相似 度 。 
3.2 作者 研究 兴趣 的 表示 

通过 建 模 得 到 的 关键 词 集 构建 作者 研究 兴趣 表 
示 模 型 时 , 通常 会 将 每 个 作者 的 研究 内 容 或 兴趣 表 
示 为 X= {(K1, Win), (K2, Wi2o), **…, (knm, Wim)} 的 形式 ， 
其 中 {ki, k2,，…, km} 表 示 为 作者 发表 的 文献 中 所 使 
用 的 关键 词 集合 ，{Wit，Wiz,，…，Wim)} 表 示 作 者 所 使 
用 的 关键 词 出 现 的 词 频 或 频率 值 ， 未 出 现 则 计 为 0 
值 。 由 于 基于 这 种 共 现 方法 假定 关键 词 之 间 相 互 独 
立 , 无 法 有 效 地 获取 关键 词 之 间 的 相关 程度 ， 而 作者 
所 使 用 的 关键 词 之 间 也 是 存在 关联 关系 的 ， 对 于 采 
用 相似 关键 词 的 作者 而 言 ， 其 研究 内 容 或 兴趣 也 存 
在 一 定 的 相似 性 。 

为 此 , 本 文通 过 word2vec 谍 人 模型 对 所 有 作者 发 
表 的 文献 中 的 题名 及 摘要 信息 进行 建 模 学 习 , 通过 将 
每 个 作者 所 使 用 的 关键 词 转化 为 语义 级 别 的 单词 特征 
向 量 形 式 , 然后 再 计算 关键 词 之 间 的 语义 相似 度 。 对 
于 作者 的 关键 词 ki;, 可 将 关键 词 ki 表示 为 : ki={(ki， 
S1)，(K2，S2)，…，(Ka，S)} 的 特征 向 量 形式 ， 其中， 
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k2,，…, ko} 表 示 与 词 Jij 最 相关 的 n 个 词语 ，{S1, Ss,…， 
Su} 表示 各 词语 与 关键 词 ki 之 间 的 余弦 距离 值 。 如 将 
作者 关键 词 “ 电 子 政务 "表示 为 向 量 : {( 电 子 政 府 : 
0.848), (公共 服务 : 0.825), (政府 网 站 : 0.751), (服务 型 
政府 : 0.731), (信息 服务 : 0.712)} 。 

在 获得 每 个 关键 词 的 向 量 表示 后 , 采用 Pearson 
相关 系数 (Pearson Correlation Coefficient, PCCJPDH 计 算 
关键 词 之 间 的 语义 相关 性 。Pearson 相关 系数 常用 于 度 
量 两 个 随机 变量 X 与 Y 之 间 的 线性 相关 性 , 通过 利用 
Pearson 相关 系数 ， 可 得 到 关键 词 ki 的 词 向 量 Six 与 关 
键 词 k; 的 词 向 量 Sjy 之 间 的 相关 性 , 计算 公式 如下: 


Da (Sixk — Si)(Sjx —S)) 


DSix -Si)? DSix -Sj)? 


其 中 ，Si 、Sj 表示 关键 词 k;、k; 与 其 所 有 相关 词 
之 间 余 弦 的 平均 值 。 计 算得 到 的 p(ki, k;) 值 越 大 , 说 明 
关键 词 之 间 越 相关 。 

3.3 ”关键 词 的 语义 网 络 构建 

获得 作者 表示 模型 后 , 需要 构建 作者 -关键 词 网 
络 。 基 于 传统 的 关键 词 共 现 分 析 方法 通常 构建 词 共 现 
矩阵 对 作者 关系 进行 量化 计算 , 然而 , 构建 的 二 值 /多 
值 矩阵 中 统计 的 原始 词 对 频次 是 绝对 值 ， 难 以 反映 词 
与 词 之 问 真正 的 相互 依赖 程度 。 同 时 ， 多 值 矩 阵 中 存 
在 的 频次 悬殊 数据 以 及 较 多 的 零 值 会 对 最 终 的 统计 结 
果 造 成 影响 。 为 此 ,相关 学 者 提出 采用 关键 词 共 现 指 
数 表达 的 方法 ,通过 引入 关键 词 共 现 相对 强度 指标 对 
词 对 频次 进行 包容 化 处 理 , 生成 相似 矩阵 和 相 异 矮 
阵 。 如 采用 了 指数 C、Ochiia 系数 中 等 。 这 几 种 方法 
只 是 为 减少 低频 词 对 共 词 分 析 过 程 的 干扰 ,以 区 分 对 
待 低频 词 以 及 高 频 词 之 间 的 共 现 强度 , 但 仍 无 法 控 气 
出 关键 词 之 间 的 语义 关联 信息 。 

本 文 提出 通过 公式 (2) 计 算得 到 的 关键 词 之 间 的 
语义 相关 度 作 为 矩阵 的 元 素 值 , 将 传统 的 词 共 现 矩 阵 
转化 为 元 素 值 在 [0, 1] 区 间 取 值 的 相关 矩阵 形式 ,最 终 
可 构建 关键 词 的 语义 网 络 G, 如 下 : 


p(k1,k1) p(ki,k2) … p(ki,kn) 
p(k, Kk1) p(k2, ks) … p(ks, kn) 


p(kik)) = O) 


G) 
plkn, kK1) pkn,kz) … p(kn, kn ) 


其 中 , 矩阵 元 素 p(k;, kj) 表示 为 关键 词 k, 之 间 的 
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相关 度 ， 该 数值 越 大 ,表明 关键 词 k，k 之 间 的 关联 程 
度 就 越 强 。 阁 一 个 关键 词 与 较 多 的 关键 词 之 间 计 算得 
到 的 相关 度 都 较 高 , 则 说 明 该 关键 词 对 表示 作者 研究 
兴趣 的 重要 程度 较 高 ， 越 能 代表 该 作者 的 研究 兴趣 。 
基于 这 种 通过 作者 文献 集 学 习 得 到 的 关键 词 向 量 形 
式 , 能 够 较 好 地 表达 作者 的 研究 兴趣 。 
3.4 ”作者 研究 兴趣 相似 性 计算 

通过 以 上 步骤 可 将 作者 的 研究 兴趣 表示 成 兴趣 甜 
阵 G, (m x n) 形 式 , 矩阵 中 行 表示 关键 词 ki 的 词 向 量 ， 
列表 示 作 者 所 使 用 的 m 个 关键 词 。 在 计算 作者 研究 兴 
趣 的 相似 性 时 ， 只 需要 计算 两 个 研究 兴趣 矩阵 之 间 的 
语义 关系 。 本 文采 用 兴趣 矩阵 之 间 的 Jensen-Shannon 
距离 (Jensen-Shannon Divergence， JSD)n1 作 为 研究 兴 
趣 的 相似 性 度量 。JSD 广泛 用 于 计算 两 个 概率 分 布 之 
间 的 相似 度 。 具 体 地 ,对 于 两 个 离散 概率 分 布 P 和 Q， 
它们 之 间 的 Jensen-Shannont 可 被 定义 为 : 


JSD(P|Q =3(KLP|M) + KL(QIM) (0) 


其 中 ，M=(P+Q)/2，KL(: | ) 表 示 两 个 分 布 之 间 的 
Kullback-Leibler 距离 。 通 过 采用 Jensen-Shannon 距离 
作为 关键 词 之 间 的 相似 度 度量 ,可 将 作者 Xi 所 使 用 的 
关键 词 ki; 与 作者 所 使 用 的 关键 词 ki 之 间 的 相似 度 
Sk 定义 为 : 


1 
Stok, 


生 (5) 
" JSD(P(DIk=ki) lpDIk=kj) 


基于 公式 (5) 获 得 关键 词 向 量 两 两 之 间 的 相似 度 
Si 后, 取 所 有 关键 词 向 量 之 间 相 似 度 的 平均 值 作 
为 作者 研究 兴趣 矩阵 之 间 的 相似 度 。 最 终 得 到 作者 % 


C 


LI 


”vv 人 人生 甘 日 工 | 
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源 ， 获 取 国 内 电子 政务 研究 领域 的 期 刊 文献 。 以 (主题 
=“ 电 子 政务 ”or 主题 = 移动 政务 ”or 主题 =“ 电 子 政 
府 ”or 主题 =“ 政 府 网 站 ”or 主题 =“ 政 务 微 博 ”) 为 检索 式 ， 
发 表 在 2003 年 -2014 年 时 间 段 内 的 文献 共 2 956 篇 ， 
去 除 综述 、 评 论 、 报 告 及 其 他 类 型 文献 ,并 根据 文献 
的 标题 及 发 表 年 份 进行 去 重 处 理 , 最 终 获 得 期 刊 论文 
共 2 791 篇 , 涉及 作者 2 104 位 , 关键 词 4 725 个 。 

根据 普 赖 斯 理论 ,发 表 论 文 数 为 N 篇 及 以 上 的 
作者 为 该 研究 领域 的 核心 作者 ，N=0.749 mas ， 其 
中 nmax 表示 该 研究 领域 发 文 数量 最 多 的 作者 的 论文 
数 。 选 择 发 文 量 为 6 篇 及 其 以 上 的 作者 ( 共 51 位 ) 作 
为 本 研究 的 分 析 对 象 ， 挖掘 这 些 核心 作者 的 研究 兴 
趣 的 相似 性 。 通 过 对 51 位 核心 作者 所 使 用 的 关键 词 
进行 抽取 与 词 频 统 计 ， 发 文 量 最 高 作者 所 使 用 的 关 
键 词 数量 为 86 个 , 而 发 文 量 最 低 作 者 所 使 用 的 关键 
词 数量 为 21 个 。 为 便于 作者 兴趣 和 矩阵 相似 性 的 计算 ， 
本 文 针 对 各 核心 作者 选取 相同 数量 的 关键 词 进行 
word2vec 建 模 学 习 。 另外 , 在 选取 关键 词 表示 作者 研 
究 兴 趣 时 , 删除 对 分 析 作 者 研究 兴趣 相似 性 以 及 分 
析 领 域 热点 较 低 贡献 的 概括 性 关键 词 ， 如 电子 政务 、 
电子 政府 等 。 
4.2 ”实验 结果 与 分 析 

(1) 作者 关键 词语 义 建 模 

对 作者 的 关键 词 癌 量 进行 建 模 , 根据 下 载 的 题 录 
信息 , 对 所 有 作者 文献 中 的 题名 和 摘要 进行 分 词 和 停 
用 词 过 滤 ， 而 对 作者 自 标 引 的 关键 词 不 进行 分 词 处 
理 。 获 取 分 词 的 结果 后 , 采用 word2vec 能 和 人 模型 进行 
训练 学 习 ,， 生 成 词 向 量 库 文 件 ,获取 每 个 作者 关键 词 
的 词 向 量 形式 。 对 于 模型 的 训练 参数 设 定 为 : 最 相似 


的 兴趣 矩阵 G, 与 作者 % 的 兴趣 矩阵 Gi 之 间 的 相似 度 


Sai 6 为 : 
SGiGi 二 (6) 
Im j=1t=l 
可 知 ， 越 大 , 说 明 两 个 作者 的 关键 词 之 间 


SGi ,G] 


的 JSD 越 小 , 作者 更 倾向 关联 。 
4 实证 分 析 


4.1 实验 设置 
选取 《中 文 社会 科学 引文 索引 》(CSSCD 作 为 数据 
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词 维度 topNSize=40， 上 下 文 窗口 大 小 参数 window=5， 
设 定 高 频 词 亚 采 样 国 值 参 数 sample=1e-3， 并 采用 层次 
Softmax 和 CBOW 算法 hs=1、cbow=1。 表 1 显示 了 部 
分 作者 关键 词 的 词 向 量 。 可 以 看 出 , 基于 word2vec 模 
型 对 作者 题名 和 摘要 进行 建 模 , 将 作者 关键 词 表示 成 
词 向 量 形式 , 能够 有 效 地 挖掘 出 与 作者 关键 词 比较 相 
关 的 词 。 关 于 “公共 服务 ”主题 ,相关 作者 主要 从 政府 
职能 、 社 会 服务 及 信息 化 等 方面 进行 研究 , 关于 “政府 
微 博 ” 主 题 ， 主要 是 从 政府 管理 、 网 络 监管 、 公 共事 务 
及 信息 传播 等 方面 进行 研究 , 这 与 获取 的 作者 文献 的 
研究 内 容 基 本 一 致 。 
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表 1 作者 关键 词 的 Top-6 相关 词 向 量 (部 分 ) 


关键 词 Top-6 相关 词 向 量 
公共 服务 政府 : 0.732 ne 服务 : 0.650 
社会 管理 : 0.636 言 息 化 : 0.582 公共 : 0.535 
政府 管理 : 0.712 网络 治理 : 0.701 监理 : 0.632 
政府 微 博 
公共 事务 : 0.621 隐私 : 0.579 政务 : 0.523 
信息 资源 信息 共享 : 0.683 整合 : 0.663 ”信息 化 : 0.641 
”信息 服务 : 0.622 分 散 : 0.579 ”资源 : 0.420 
定量 : 0.724 评价 : 0.702 立法 : 0.683 
绩效 评估 轩 
价值 取向 : 0.647 ”服务 政府 : 0.604 改进 : 0.601 
a 个 性 化 : 0.762 ”信息 服务 : 0.738 异 构 : 0.694 
云 计算 ，。 。 
统筹 规划 : 0.632 效用 : 0.614 技术 : 0.602 


(2) 关键 词语 义 网 络 分 析 


在 基于 词 频 或 共 现 词 频 的 共 现 分 析 方 法 中 ， 只 是 
根据 作者 自 标 引 的 关键 词 对 是 否 在 同一 篇 文献 中 共 现 
来 确定 关键 词 对 在 共 现 矩阵 中 的 取 值 , 如 图 2 所 示 。 


关键 词 “信息 资源 ”与 “政府 微 博 "之 间 不 存在 相关 性 


Ly 


与 “绩效 评估 ”只 共 现 2 次 ; 而 关键 词 “公共 服务 ”与 “ 政 
府 微 博 ”"、“ 公 共管 理 " 具 有 较 高 的 相关 性 。 在 这 种 多 值 
和 矩阵 中 存在 的 频次 悬殊 数据 以 及 较 多 的 零 值 也 严重 影 
响 最 终 的 共 词 分 析 结 果 。 通 过 提出 的 基于 word2vec 
模型 的 语义 相关 度量 方法 ， 可 有 效 计算 出 共 现 及 非 共 
现 关键 词 对 之 间 的 关系 , 计算 得 到 的 关键 词 之 间 具 有 


数字 城市 


体制 改革 
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不 同 程度 的 相关 性 ,一 定 程度 上 提高 了 共 词 分 析 方 法 
的 科学 性 和 有 效 性 , 结果 如 图 3 所 示 。 


a 0.076 
政府 微 博 
0.064 0.057 


绩效 评估 


图 3 关键 词语 义 关 系 


为 进一步 研究 作者 所 使 用 关键 词 之 间 的 语义 关系 
以 及 对 作者 研究 兴趣 的 贡献 程度 ,对 构建 的 关键 词语 
义 网 络 进行 分 析 。 为 突出 作者 所 使 用 关键 词 之 间 的 语 


义 相关 怕 
4 所 示 : 


E， 设 定 阔 值 ‰=0.05， 小 于 该 值 计 为 0 值 ， 如 图 


业务 协同 


习 


知识 管理 


图 4 关键 词语 义 网 络 图 
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其 中 , 节点 的 位 置 越 居 中 并 且 面 积 越 大 ,说 明 该 
作者 关键 词 越 核心 , 对 作者 研究 兴趣 贡献 度 越 大 。 可 
以 看 出 , “公共 服务 "、“ 信 息 社会 "、“ 政 府 网 站 ”和 “网 络 
奥 情 "等 关键 词 所 对 应 的 节点 较 大 且 处 于 中 间 位 置 , 说 
明 这 些 关键 词 为 该 领域 研究 的 主要 内 容 ,受到 相关 研 
究 者 的 广泛 关注 。 而 “信息 管理 " “政府 职能 ”"、“ 指 标 
体系 “层次 分 析 法 ”等 关键 词 所 对 应 的 节点 较 小 上 且 处 
于 相对 边缘 位 置 ,说 明 这 些 方面 的 研究 已 趋 近 于 饱和 。 
另外 , 关键 词 之 间 连 线 的 粗细 程度 也 可 以 看 出 关键 词 
之 间 的 语义 相关 强度 , “公共 服务 "、“ 政 府 网 站 ”、“ 信 息 
服务 ”等 关键 词 与 其 他 关键 词 相关 性 都 比较 大 , 说 明 这 
些 关 键 词 对 作者 研究 兴趣 也 具有 较 大 的 贡献 程度 。 

(3) 作者 研究 兴趣 相似 性 分 析 

在 构建 关键 词语 义 网 络 后 , 将 每 个 作者 的 研究 兴 
趣 表示 成 研究 兴趣 矩阵 形式 ， 采 用 公式 (6) 计 算 作 者 研 
究 兴 趣 的 相似 度 ， 并 进行 归 一 化 处 理 。 通 过 归 一 化 处 
理 将 矩阵 对 角 线 元 素 设置 为 1， 以 突出 作者 与 自身 的 
相似 性 , 表 2 显示 作者 研究 兴趣 之 间 的 相似 程度 。 本 文 
提出 的 作者 兴趣 矩阵 相似 度 计 算 方法 仅 研究 两 个 作者 
之 间 潜 在 的 合作 关系 , 通过 该 方法 可 以 计算 出 每 对 作 
者 之 间 研 究 的 相似 程度 能够 有 效 挖掘 出 相似 度 较 大 
但 尚未 产生 合作 关系 的 作者 对 。 如 对 于 作者 罗 贤 春 ， 
其 与 张 锐 昕 、 何 振 、 孟 庆 国 等 作者 研究 兴趣 比较 相似 ， 
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而 作者 王 芳 与 郑 舌 、 高 洁 等 作者 具有 较 高 的 相似 性 。 
基于 该 方法 计算 同 单位 且 经 常 产生 合作 关系 的 作者 之 
间 也 具有 较 高 的 相似 度 ， 如 计算 得 到 同属 吉林 大 学 的 
作者 张 锐 昕 与 杨 国 栋 之 间 的 相似 度 为 0.372， 同 属 湘潭 
大 学 的 作者 何 振 与 周 伟 之 间 的 相似 度 为 0.410, 说 明 
该 方法 在 计算 作者 研究 兴趣 相似 性 时 具有 一 定 的 有 
效 性 。 


表 2 作者 研究 兴趣 相似 矩阵 (部 分 ) 


作者 


作者 罗 贤 春 张 锐 昕 何 振 王 芳 
罗 贤 春 1 

张 锐 昕 0.315 1 

何 振 0.472 0.336 1 

王 芳 0.190 0.216 0.185 1 
刘 焕 成 0.157 0.193 0.215 0.206 
胡 广 伟 0.092 0.107 0.143 0.253 
郑 “ 乔 0.231 0.214 0.195 0.421 
徐 晓 林 0.074 0.095 0.130 0.206 
备 庆 国 0.321 0.284 0.264 0.175 
高 滞 0.145 0.172 0.193 0.341 


为 进一步 挖掘 作者 研究 兴趣 之 间 的 语义 关系 , 将 
作者 作为 节点 进行 社会 网 络 分 析 , 选择 相似 度 大 于 
0.20 的 作者 关系 进行 可 视 化 呈现 ,如 图 5 所 示 : 


图 $ 作者 潜在 合作 关系 网 络 
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可 以 看 出 , 罗 贤 春 、 张 锐 昕 、 刘 焕 成 等 作者 处 于 
网 络 的 核心 位 置 ,说 明 这 些 作者 在 该 领域 具有 和 较 高 的 
影响 ,而 马 亮 、 安 小 米 、 王 新 才 等 处 于 网 络 的 边缘 位 
置 ,说明 这 些 作者 的 影响 力 相 对 较 小 。 对 该 网 络 进 行 
中 心性 分 析 , 计算 得 到 该 网 络 的 平均 点 度 中 心 度 为 
46.088， 其 中 有 17 位 作者 的 点 度 中 心 度 大 于 平均 节点 
中 心 度 值 , 且 17 位 作者 中 有 8 位 位 于 作者 发 文 量 统计 
前 10 名 ,说 明 该 方法 计算 得 到 的 点 度 中心 度 和 作者 发 
文 量 存在 相关 关系 且 之 间 的 拟 合 程度 较 高 。 其 中 , 夏 
义 蓝 、 胡 广 伟 、 张 锐 昕 等 点 度 中 心 度 比 较 高 ,说明 这 
些 作者 与 较 多 作者 的 研究 兴趣 具有 较 高 相似 度 , 在 该 
领域 研究 比较 广泛 上 且 具 有 较 高 影响 力 。 罗 贤 春 、 张 锐 
昕 、 何 振 三 位 作者 的 中 间 中 心 度 最 高 ， 且 与 其 他 作者 
存在 一 定 的 差距 , 说 明 三 位 作者 处 于 重要 的 地 位 , 且 
较 大 影响 其 他 作者 之 间 研 究 兴趣 的 相似 性 , 更 多 的 作 
者 之 间 可 通过 这 三 位 作者 取得 较 高 的 研究 兴趣 相似 
度 ， 从 而 建立 潜在 的 合作 关系 。 通 过 该 方法 将 研究 兴 
趣 相 似 但 未 产生 合作 关系 的 作者 进行 关联 ， 从 而 为 更 
多 具有 相同 研究 兴趣 的 作者 之 间 进 行 知识 的 交流 提供 
借鉴 ， 以 促进 电子 政务 领域 中 热门 研究 主题 的 发 展 。 
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(4) 作者 研究 兴趣 类 团 主 题 分 析 

通过 聚 类 算法 将 研究 兴趣 相似 的 作者 进行 聚集 形 
成 类 团 ， 以 揭示 该 领域 的 研究 主题 结构 。 对 作者 研究 
兴趣 相似 矩阵 进行 层次 聚 类 分 析 , 得 到 国内 电子 政务 
研究 领域 的 作者 聚 类 树 状 图 ， 如 图 6 所 示 。 可 以 看 出 ， 
对 作者 研究 主题 进行 类 团 分 析 , 可 将 该 网 络 大 致 分 为 
三 个 类 团 。 类 团 1 中 主要 包含 罗 贤 春 、 何 振 、 张 锐 昕 
等 作者 , 该 类 团 研究 方向 比较 多 元 化 ,主要 是 关于 电 
子 政务 建设 、 体 系 构建 、 信 息 服务 等 比较 宏观 理论 的 
研究 ,以 探索 电子 政务 相关 的 理论 框架 ,同时 还 涉及 
信息 共享 、 科 学 决策 、 绩 效 评 佑 等 研究 主题 。 类 团 2 
中 主要 包含 刘 焕 成 、 胡 广 伟 、 高 洁 等 作者 , 研究 内 容 
主要 从 信息 管理 、 体 制 改 革 、 信 息 技 术 等 角度 探索 电 
子 政务 领域 的 信息 整合 、 重 组 与 管理 等 微观 策略 方面 
的 研究 , 还 涉及 到 政府 职能 、 公 共管 理 、 行 政 管理 等 
应 用 技术 的 研究 。 类 团 3 主要 包括 王 芳 、 郑 硕 、 徐 晓 
林 , 三 位 作者 共有 关键 词 为 政务 微 博 、 网 络 伦理 、 移 
动 政务 等 ， 即 围绕 以 政府 微 博 为 主题 的 网 络 熏 情 、 电 
子 服务 开展 研究 。 从 聚 类 结果 可 看 出 ， 基 于 构建 的 作 
者 研究 兴趣 矩阵 聚集 形成 的 类 团 语 义 都 比较 明确 。 


图 6 电子 政务 领域 作者 聚 类 树 状 图 
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5 结 语 


本 文 提出 一 种 基于 关键 词语 义 网 络 构建 的 作者 人 研 
究 兴 趣 相 似 性 度量 方法 。 通 过 将 深度 学 习 思 想 引 入 到 
文献 计量 中 ,基于 word2vec 模型 对 作者 文献 题名 及 摘 
要 进行 建 模 , 将 作者 所 使 用 的 关键 词 表示 成 语义 级 别 
的 单词 特征 向 量 ,， 从 而 将 作者 研究 兴趣 表示 成 矩阵 形 
式 进 行 相 似 性 度量 。 通 过 对 国内 电子 政务 研究 领域 的 
核心 作者 进行 分 析 , 验证 了 该 方法 能 够 有 效 地 挖 气 作 
者 研究 兴趣 之 间 的 相似 性 。 对 作者 研究 兴趣 相似 性 的 
有 效 度 量 , 能够 帮助 学 者 选择 与 自己 研究 兴趣 相似 但 
还 未 产生 合作 关系 的 学 者 进行 知识 的 交流 提供 借鉴 。 

本 文 的 不 足 之 处 在 于 : 只 采用 作者 文献 的 题名 和 
摘要 进行 建 模 学 习 , 训练 语 料 的 准确 性 有 待 进一步 提 
高 。 训 练 时 所 使 用 的 语 料 越 准确 、 全 面 ， 建 模 得 到 的 
词 向 量 越 相 关 , 下 一 步 的 研究 工作 将 获取 文献 的 摘要 
和 正文 对 关键 词 进行 训练 学 习 。 本 文 提出 的 度量 方法 
仅 计 算 两 个 作者 之 间 洪 在 的 合作 关系 , 将 作者 研究 兴 
趣 之 间 的 相似 性 转化 成 兴趣 矩阵 之 间 的 相似 性 度量 。 
需要 提出 新 的 有 效 度 量 方法 计算 多 个 作者 之 间 的 相似 
程度 ,以 挖掘 多 个 作者 之 间 共 同 合作 的 可 能 性 。 只 是 
借助 词 模型 进行 关键 词 对 间 的 语义 度量 ,可 借助 外 部 
知识 库 Wikipedia、HowNet 词典 等 , 构建 更 加 丰富 的 
科研 合作 网 络 、 引 用 关系 网 络 并 选择 合适 的 评价 指标 
进行 验证 和 分 析 , 以 期 进一步 提高 共 词 分 析 方法 的 有 
效 性 。 
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Similarity Measurement of Research Interests in Semantic Network 


Ba Zhichao …” LiGang' Zhu Shiwei 
!(School of Information Management, Wuhan University, Wuhan 430072, China) 
(Information Research Institute of Shandong Academy of Sciences, Jirnan 250014, China) 


Abstract: [Objective] This study aims to identify relationship among authors of papers with similar contents but 
different keywords, and then tries to add more sematic factors to the co-occurrence analysis. [Methods] We proposed a 
method to gauge the similarity of research interests based on the keywords semantic network system. First, all keywords 
were represented as word vectors and translated into low dismension distribution with the help of neural network 
language 一 word2vec model. Second, we calculated the semantic association of keywords to build up a semantic 
network. Finally, we adopted the Jensen-Shannon distance method to measure the similarity of research interests. 
[Results] The proposed approach can accurately identify the similarities of co-occurrence and non co-occurrence terms 
and then effectively predict potential cooperation among authors. [Limitations] The amount and accuracy of training 
materials need to be increased. At present, we could only find potential cooperation between two authors. More research 
is needed to explore the possibilities of cooperation among multi-authors. [Conclusions] The proposed method could 
help to improve the performance of traditional co-occurrence analysis. 

Keywords: Author-keyword network Neural network language model Semantic similarity 
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